فیصلہ شجر لیب کا امتحان (Decision Tree Lab Quiz)

منظر نامہ ۱: ڈیٹا کی تیاری اور صفائی

سوال ۱: آپ نے ایک ڈیٹا سیٹ منتخب کیا ہے۔ لیب کا پہلا قدم کیا ہونا چاہیے تاکہ اس بات کو یقینی بنایا جا سکے کہ آپ کا فیصلہ شجر (Decision Tree) درست نتائج دے؟

A. ڈیٹا میں موجود خالی یا گمشدہ (Missing) اقدار کا جائزہ لینا اور انہیں سنبھالنا۔ (منطقی انتخاب) B. فوری طور پر پورے ڈیٹا سیٹ پر ماڈل کو ٹرین (Train) کرنا۔ (غیر منطقی) C. تمام عددی کالمز کو حذف (Delete) کر دینا۔ D. صرف پہلی ۱۰۰ قطاروں کا استعمال کرنا۔

سوال ۲: آپ کے ڈیٹا سیٹ میں 'شہر' جیسی کیٹیگوریکل (Categorical) خصوصیات ہیں۔ انہیں فیصلہ شجر میں استعمال کرنے کے لیے آپ کو کیا کرنا چاہیے؟

A. انہیں چھوڑ دیں، کیونکہ فیصلہ شجر صرف عددی اقدار کو قبول کرتے ہیں۔ (غیر منطقی) B. تمام کیٹیگوریکل خصوصیات کو ایک ہی عددی قدر (مثلاً 1) سے تبدیل کر دینا۔ C. ون ہاٹ انکوڈنگ (One-Hot Encoding) یا لیبل انکوڈنگ (Label Encoding) کا استعمال کرنا۔ (منطقی انتخاب) D. انہیں حرف تہجی کے لحاظ سے ترتیب دینا۔

سوال ۳: آپ نے مشاہدہ کیا ہے کہ 20% ڈیٹا گمشدہ (Missing) ہے۔ آپ کو گمشدہ ڈیٹا کو کس طریقے سے درست کرنا چاہیے تاکہ ماڈل کی کارکردگی بہتر ہو؟

A. ان تمام قطاروں کو فوری طور پر حذف کر دیں جن میں ایک بھی قدر گمشدہ ہو۔ (غیر منطقی، ڈیٹا ضائع ہوگا) B. انہیں 0 سے بھر دیں۔ C. انہیں ایک بے ترتیب (Random) نمبر سے تبدیل کر دیں۔ D. مناسب تکنیک جیسے میڈین (Median) یا موڈ (Mode) امپیوٹیشن کا استعمال کرنا۔ (منطقی انتخاب)

سوال ۴: اپنے ماڈل کی عمومی کارکردگی کی جانچ کے لیے، آپ ڈیٹا کو ٹریننگ اور ٹیسٹنگ سیٹ میں تقسیم کرتے ہیں۔ بہترین مشق کے طور پر، آپ کو عام طور پر کون سا تناسب استعمال کرنا چاہیے؟

A. 70% ٹریننگ کے لیے اور 30% ٹیسٹنگ کے لیے۔ (منطقی انتخاب) B. 100% ٹریننگ کے لیے اور 0% ٹیسٹنگ کے لیے۔ (اوور فٹنگ کا خطرہ) C. 50% ٹریننگ کے لیے اور 50% ٹیسٹنگ کے لیے۔ D. صرف 5% ٹریننگ کے لیے استعمال کرنا۔

منظر نامہ ۲: ماڈل ٹریننگ اور سپلِٹ کا معیار

سوال ۵: فیصلہ شجر میں، نوڈز (Nodes) کو تقسیم کرنے کے لیے سب سے عام پیمانہ کیا ہے، جو ہمیں بتاتا ہے کہ ایک تقسیم کتنی 'خالص' ہے؟

A. مین ایبسولیوٹ ایرر (MAE) B. اینٹروپی (Entropy) اور گینی انڈیکس (Gini Index)۔ (منطقی انتخاب) C. کویریئنس (Covariance) D. ایکویشن آف لائن (Equation of Line)

سوال ۶: اگر آپ کا مقصد وہ خصوصیت ڈھونڈنا ہے جو ماڈل کو سب سے زیادہ معلومات فراہم کرے، تو آپ اینٹروپی کے ساتھ کون سی پیمائش کی قدر کو بڑھانے کی کوشش کریں گے؟

A. انفارمیشن گین (Information Gain) کو زیادہ سے زیادہ کرنا۔ (منطقی انتخاب) B. صرف اینٹروپی کو زیادہ سے زیادہ کرنا۔ (غلط) C. ٹائم کمپلیکسٹی (Time Complexity) کو بڑھانا۔ D. ایکیوئریسی (Accuracy) کو نظر انداز کرنا۔

سوال ۷: آپ کا شجر تیزی سے بڑھ رہا ہے اور ہر آخری پتا (Leaf) پر صرف ایک یا دو ڈیٹا پوائنٹس ہیں۔ اس مسئلے کو کیا کہا جاتا ہے؟

A. انڈر فٹنگ (Underfitting) B. فیچر انجینئرنگ C. اوور فٹنگ (Overfitting)۔ (منطقی انتخاب) D. بائنری کلاسیفیکیشن

سوال ۸: اوور فٹنگ سے بچنے کے لیے، ایک اہم ہائپر پیرامیٹر جسے آپ کنٹرول کر سکتے ہیں وہ کیا ہے؟

A. شجر کی زیادہ سے زیادہ گہرائی (Max Depth) یا کم از کم نمونے فی پتا (Min Samples per Leaf) مقرر کرنا۔ (منطقی انتخاب) B. ڈیٹا سیٹ کا سائز دوگنا کرنا۔ C. تمام خصوصیات (Features) کو حذف کر دینا۔ D. ماڈل ٹریننگ میں صرف 5 سیکنڈ لگانا۔

منظر نامہ ۳: کانٹ چھانٹ (Pruning) اور ماڈل کی اصلاح

سوال ۹: پوسٹ-پروننگ (Post-Pruning) کا بنیادی مقصد کیا ہے؟

A. شجر کی پیچیدگی کو کم کرنا اور ٹیسٹ سیٹ پر اس کی کارکردگی کو بہتر بنانا۔ (منطقی انتخاب) B. ٹریننگ سیٹ پر 100% ایکیوئریسی حاصل کرنا۔ C. نئے نوڈز شامل کرنا۔ D. ماڈل کو مزید پیچیدہ بنانا۔

سوال ۱۰: پری-پروننگ (Pre-Pruning) کس وقت عمل میں آتی ہے؟

A. شجر مکمل ہونے کے بعد۔ B. شجر کی تعمیر کے دوران، تقسیم کے معیار پر پابندی لگا کر۔ (منطقی انتخاب) C. صرف ڈیٹا کی صفائی کے دوران۔ D. جب ماڈل کو تعینات (Deploy) کیا جاتا ہے۔

سوال ۱۱: آپ کے تجربے میں، آپ کو پتہ چلتا ہے کہ فیصلہ شجر میں چھوٹی تبدیلیاں بھی نتائج کو بہت زیادہ غیر مستحکم (Unstable) کر سکتی ہیں۔ اس مسئلے کو حل کرنے کا بہترین طریقہ کیا ہے؟

A. زیادہ گہرا شجر بنانا۔ B. ڈیٹا کا صرف ایک چھوٹا حصہ استعمال کرنا۔ C. لینیئر ریگریشن استعمال کرنا۔ D. رینڈم فاریسٹ (Random Forest) یا بووسٹنگ (Boosting) جیسے اینسمبل طریقے استعمال کرنا۔ (منطقی انتخاب)

سوال ۱۲: ماڈل کے بہترین ہائپر پیرامیٹرز (جیسے Max Depth) کو ڈھونڈنے کے لیے لیب میں کون سی تکنیک سب سے زیادہ مؤثر ہے؟

A. صرف ٹریننگ سیٹ پر جانچ۔ B. صرف ایک بار ٹیسٹ سیٹ کا استعمال۔ C. کراس ویلیڈیشن (Cross-Validation) کا استعمال۔ (منطقی انتخاب) D. تمام خصوصیات کو چھوڑ دینا۔

منظر نامہ ۴: ماڈل کی تشریح اور تعصب

سوال ۱۳: فیصلہ شجر کا ایک بڑا فائدہ کیا ہے جو اسے بلیک باکس ماڈلز (جیسے نیورل نیٹ ورکس) سے ممتاز کرتا ہے؟

A. تشریح پذیری (Interpretability): شجر کی ساخت کو آسانی سے دیکھا اور سمجھا جا سکتا ہے۔ (منطقی انتخاب) B. تیز ٹریننگ وقت، ہمیشہ۔ C. یہ ہمیشہ لکیری تعلقات پیدا کرتا ہے۔ D. یہ خود بخود تمام گمشدہ اقدار کو پُر کر دیتا ہے۔

سوال ۱۴: فیچر امپورٹینس (Feature Importance) کی قدریں دیکھ کر، آپ کو پتہ چلتا ہے کہ ایک خصوصیت کا اسکور بہت زیادہ ہے۔ اس کا کیا مطلب ہے؟

A. اس خصوصیت کو شجر میں کبھی استعمال نہیں کیا گیا۔ B. یہ ماڈل کو اوور فٹ کر رہا ہے۔ C. یہ خصوصیت ماڈل کے فیصلے پر سب سے زیادہ اثر انداز ہو رہی ہے۔ (منطقی انتخاب) D. اس کا مطلب ہے کہ اسے ہٹا دیا جانا چاہیے۔

سوال ۱۵: اگر آپ کا ٹریننگ ڈیٹا تاریخی طور پر تعصب (Biased) ہو (مثلاً صرف ایک خاص آبادی کے لیے موزوں ہو)، تو آپ کا فیصلہ شجر کیا کرے گا؟

A. یہ خود بخود تعصب کو ختم کر دے گا۔ B. یہ ہمیشہ بہترین نتائج دے گا۔ C. یہ ماڈل کو انڈر فٹ کر دے گا۔ D. یہ ماڈل سیکھے ہوئے تعصب کو دوبارہ پیدا کرے گا اور غیر متوازن فیصلے کرے گا۔ (منطقی انتخاب)

سوال ۱۶: جب ایک فیصلہ شجر ریگریشن کا کام کرتا ہے (کلاسیفیکیشن کے بجائے)، تو تقسیم کے لیے استعمال ہونے والے عام معیار کیا ہیں؟

A. مین اسکوائرڈ ایرر (MSE) یا مین ایبسولیوٹ ایرر (MAE) میں کمی۔ (منطقی انتخاب) B. گینی انڈیکس میں اضافہ۔ C. بائنری کراس اینٹروپی۔ D. صرف اینٹروپی کا استعمال۔

منظر نامہ ۵: جدید تصورات اور موازنہ

سوال ۱۷: اگر فیصلہ شجر کی کارکردگی غیر خطی (Non-linear) حدود والے مسائل پر بہتر ہو، تو کیا وجہ ہے؟

A. کیونکہ فیصلہ شجر ہمیشہ لکیری تقسیم کرتے ہیں۔ B. کیونکہ وہ ہمیشہ اوور فٹ ہو جاتے ہیں۔ C. فیصلہ شجر ڈیٹا کی جگہ کو مستطیلی خطوں میں تقسیم کر کے غیر خطی تعلقات کو ماڈل کرتے ہیں۔ (منطقی انتخاب) D. کیونکہ ان کی تشخیص کرنا مشکل ہے۔

سوال ۱۸: ID3 الگورتھم کی سب سے بڑی خامی کیا ہے جو CART اور C4.5 میں درست کی گئی ہے؟

A. یہ صرف کیٹیگوریکل ڈیٹا کو سنبھال سکتا ہے اور اس میں اوور فٹنگ کا شدید رجحان ہوتا ہے۔ (منطقی انتخاب) B. یہ گمشدہ اقدار کو بہت اچھی طرح سنبھالتا ہے۔ C. یہ ماڈل کی کارکردگی کو بہت آہستہ کرتا ہے۔ D. یہ ہمیشہ کراس ویلیڈیشن استعمال کرتا ہے۔

سوال ۱۹: جب آپ ایک بہت بڑا ڈیٹا سیٹ استعمال کر رہے ہوں (مثلاً 1 ملین ریکارڈز)، تو ایک فیصلہ شجر کی تربیت میں کون سا مسئلہ پیش آ سکتا ہے؟

A. لکیری ٹریننگ۔ B. زیادہ میموری (Memory) کا استعمال اور طویل تربیت کا وقت، خاص طور پر ہر تقسیم پر بہترین خصوصیت تلاش کرتے ہوئے۔ (منطقی انتخاب) C. صرف انڈر فٹنگ کا مسئلہ۔ D. شجر بن ہی نہیں سکتا۔

سوال ۲۰: آپ نے کامیابی سے ایک فیصلہ شجر ماڈل کو تربیت دی، اس کی جانچ کی، اور اس میں کانٹ چھانٹ بھی کی۔ اب حتمی نتیجہ کیا ہونا چاہیے؟

A. ماڈل کو بغیر کسی دستاویز کے چھوڑ دینا۔ B. تمام ٹریننگ ڈیٹا کو حذف کر دینا۔ C. نتائج کو نظر انداز کرنا۔ D. ماڈل کو تعینات (Deployment) کے لیے تیار کرنا اور اس کی کارکردگی کی نگرانی کرنا۔ (منطقی انتخاب)

فیصلہ شجر لیب کا امتحان

Decision Tree Lab Simulation: ۲۰ سوالات

منظر نامہ ۱: ڈیٹا کی تیاری اور صفائی

منظر نامہ ۲: ماڈل ٹریننگ اور سپلِٹ کا معیار

منظر نامہ ۳: کانٹ چھانٹ (Pruning) اور ماڈل کی اصلاح

منظر نامہ ۴: ماڈل کی تشریح اور تعصب

منظر نامہ ۵: جدید تصورات اور موازنہ